Angaben zu den Daten

Das verwendete Dataset des Projekts: https://www.kaggle.com/datasets/gregorut/videogamesales
Dies besteht aus den Daten von https://www.vgchartz.com/ für die Jahre 1980 bis 2016 und umfasst die Folgenden Spalten bzw.Daten.


Inhaltsverzeichnis

  1. Releaseanalyse
  2. Platformanalyse
  3. Publisheranalyse
  4. Genreanalyse
  5. Genreverteilung pro Jahr
  6. Publisher Genres
  7. Kritischer Rückblick

Thesen

Bevor wir mit der Analyse der Daten beginnen können Stellen wir erstmal ein paar Thesen bzw. Fragestellungen auf die wir im laufe des Projekts hinterfragen bzw beantworten wollen.


Daten und Librarys

Nach dem Vorstellen der Daten und dem aufstellen der initialen Thesen können wir nun mit dem einlesen der Daten beginnen. Zusätzlich erstellen wir noch eine Farbpalette und importieren die Librarys

library(readr)
library(tidyverse)
library(forcats)
library(plotly)
library(knitr, warn.conflicts = FALSE, quietly=TRUE)
library(RColorBrewer)
library(stringr)
library(dygraphs)
library(xts)
suppressPackageStartupMessages(library(dplyr))
myPalette <- brewer.pal(10, "Paired")
vgsales <- read_csv("vgsales.csv")

Video Game Releases

Zuerst schauen wir und die Anzahl der Videospiele und die Anzahl der Verkäufe im laufe der Jahre an.

Hierzu verwenden wir Liniendiagramme. Außerdem filtern wir alle Datensätze in denen kein Jahr angegeben ist sowie Datensätze mit den Jahren 2017 und 2020 um Fehlerhafte Daten und unvollständige Daten aus der Liste zu entfernen.

Game Releases over the Years

Game Amount

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Anzahl)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Amount"

)

filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Game Amount from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Game Sales

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = " Game Sales per Year (in mio)"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Game Sales from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Sales per Game

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Sales per Game from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )


#Platform Analyse {#Platformanalyse}

Hier erkennen wir das 2008 und 2009 die Jahre waren in denen die Meisten Games Releast wurden und diese auch die meisten Verkäufe haben. Den größten per Game Verkaufswert gab es allerdings 1984,1985 und 1989. Neuere spiele hingegen verkaufen sich durchschnittlich schlechter was durch das größere Angebot auch zu erwarten ist.

Nun betrachten wir die Anzahl der Videospiele aufgelistet nach Platform.

Hierbei stellt sich die Frage ob ältere Plattformen mehr Spielereleases haben wovon auszugehen ist. Hierzu verwenden wir ein einfaches Balkendiagramm welche eine gute erste übersicht bietet.

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(Anzahl =n()) 

ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Anzahl"
)
ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Game Amount by Platform" ,colors = myPalette) %>% 
  layout(title="Game Amount by Platform",
         xaxis = ax,
         yaxis = ay
         
         )

Dies lässt sich nicht generell bestätigen aber ein Trend ist definitiv erkennbar.

Nun stellt sich die Frage welche Plattform die meisten Sales hat.

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "Global Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )

Wie sich herausstellt ist dies jedoch nicht die Platform welches die meisten Gamereleases hat.


Platform Ranking nach Region

Nun analysieren wir die unterschiede der Regionen.

Hierzu verwenden wir sowohl sorted bar plots sowie um einen besseren Überblick über die Prozentualverteilung der Konsolen in den einzelnen Regionen Pie charts.

Einzuwenden hierbei ist, dass die Regionen natürlich unterschiedlich viele Einwohner haben.Ein vergleich der absoluten Saleswerte ist hierbei natürlich nur wenig ausschlaggebend zeigt aber einen generellen beliebtheitstrend der Konsolen auf.

Platform Ranking

Balkendiagramme

Europa

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "EU Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="EU Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )

Nord-Amerika

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "NA Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="NA Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )

Japan

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "JP Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="JP Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )

kreisdiagramme

Europa

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "EU Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent',
           name="EU Sales Amount by Publisher" ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Nord-Amerika

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "NA Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent',
           name="NA Sales Amount by Publisher" ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Japan

grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "JP Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent',
           name="JP Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )

Im genensatz zur EU, in der das japanische unternehmen Sony mit der PS2 und PS3 die liste anführt, hat in den USA das Landeseigene softwareunternehmen Microsoft mit der Xbox360 die Nase vorn. In Japan hingegen ist wie zu erwarten der japanische hersteller Nintendo mit dem DS der Markführer.


Platform Sales im laufe der Jahre

Um sich das Ganze etwas genauer anzuschauen betrachten wir die Anzahl der Sales per Platform im Verlauf der Jahre.

Um eine überladung des Diagramms zu verhindern werden hier allerdings nur Plattformen mit mindestens 60 mio in Sales im entsprechenden Jahr berücksichtigt. Dies hat den Nachteil das einige z.T wichtige Daten Fehlen, ein Weglassen ebenjenes Filters fürt aber zu kompletter Unübersichtlichkeit.

grouped <- vgsales  %>%                                 
  group_by(Year, Platform) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017')  %>% filter(gr_sum>60)%>%
  as.data.frame()
grouped <- grouped %>%arrange(desc(gr_sum)) %>% 
  group_by(Year, Platform) %>%
  slice(1:3)

filtered <- grouped %>% select(Year,Platform,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Platform (in mio)"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Platform ,colors = myPalette)%>% 
  layout(title="Sales per Platform from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Hier erkennen wir das Platform, wie zu erwarten, meist kurz nach Release die größten Verkaufszahlen verzeichnen.


Publisher Vergleich

Nun stellt sich die Frage ob sich neben bestimmten Platformen auch bestimmte Entwickler/Publisher häufen. Hierbei gehen wir davon aus das vermutlich Nintendo und EA die Liste anführen. Hierzu verwenden wir wiederum sorted Bar-Charts und kürzen die Namen um die Begriffe “Entertainment”, “Interactive”, “Game”, “Games” und “Studios” da dies die Namen nur unnötig verlängert und Filtern Publisher mit Geringen Anzahl an Game Releases.

Publisher

Amount

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n()) %>%  
  filter(Anzahl>100) %>% filter(Publisher!="Unknown")




PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)


ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Anzahl"
)
ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Game Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="Game Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         
         )

Sales

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(Global_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Global Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Auffällig ist hier die diskrepanz zwischen Anzahl der Spielereleases und Anzahl der Spieleverkäufe. Im gegensatz zu der Anzahl der Spiele (bei dem Nintendo nur auf platz 6 Sitz) dominiert Nintendo im anzahl der Sales.

Nun stellt sich wieder einmal die Frage ob sich dies in Bestimmten teilen der Welt unterscheidet und hierzu verwenden wir wiederum die SortedBar/Piechart kombo und die bereits genannten Filter


Publisher Ranking nach Region

Publisher Ranking nach Region

Balkendiagramme

Europa

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(EU_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)


grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "EU Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="EU Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Nord Amerika

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(NA_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "NA Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="NA Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Japan

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(JP_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "JP Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="JP Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Kreisdiagramme

Europa

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(EU_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "EU Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,
           name="EU Sales Amount by Publisher"
          ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Nord-Amerika

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(NA_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "NA Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,textinfo='label+percent',
           name="NA Sales Amount by Publisher"
          ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Japan

grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(JP_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "JP Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,
           name="JP Sales Amount by Publisher"
          ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )

Zwischen EU und US lassen sich hier kaum Unterschiede feststellen in Japan hingegen ist eine verschiebung zu erkennen. Japanische Publisher führen hierbei die Liste an und drängen andere große unternehmen von den Top spots.


Genreverteilung der Videospiele nach Anzahl

Nun schauen wir uns die Genreverteilung von Videospielen an. Hierzu verwenden wir wiederum die Altbekannte sorted Bar/Pie-Chart kombo.

Genre Amount

Balken Diagramm

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(Anzahl =n())

grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Amount by Genre"
           ,colors = myPalette) %>% 
  layout(title="Amount by Genre",
         xaxis = ax,
         yaxis = ay
         )

Kreis Diagramm

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(Anzahl =n())

grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,
           name="Amount by Genre"
          ,colors = myPalette) %>% 
  layout(title="Amount by Genre",
         xaxis = ax,
         yaxis = ay
         )

Hierbei ist zu erkennen das Action und Sports ein Großteil (34%) der Genres ausmachen. Die Frage ist jedoch wie sind die Verkäufe verteilt und beeinflusst die anzahl der Games pro Genre irgendwie die Verkaufszahlen?

Sales Amount

Balken Diagramm

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre"
           ,colors = myPalette) %>% 
  layout(title="Sales by Genre",
         xaxis = ax,
         yaxis = ay
         )

Kreis Diagramm

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre"
          ,colors = myPalette) %>% 
  layout(title="Sales by Genre",
         xaxis = ax,
         yaxis = ay
        )

Hierbei erkennen wir das es einige Unterschiede gibt Action und sports machen jedoch weiterhin einen Grosteil des Markts aus.

Nun schauen wir uns die Unterscheide in den Regionen an.

Regionale Unterschiede der Genres

SalesbyGenre

Balkendiagramme

Europa

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre (EU)"
           ,colors = myPalette) %>% 
  layout(title="Sales by Genre (EU)",
         xaxis = ax,
         yaxis = ay
         )

Nord-Amerika

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre (NA)"
           ,colors = myPalette) %>% 
  layout(title="Sales by Genre (NA)",
         xaxis = ax,
         yaxis = ay
         )

Japan

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre (JP)" ,colors = myPalette) %>% 
  layout(title="Sales by Genre (JP)",
         xaxis = ax,
         yaxis = ay
         )

Kreisdiagramme

Europa

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre (EU)" ,colors = myPalette) %>% 
  layout(title="Sales by Genre (EU)",
         xaxis = ax,
         yaxis = ay
        )

Nord-Amerika

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre (NA)",colors = myPalette) %>% 
  layout(title="Sales by Genre (NA)",
         xaxis = ax,
         yaxis = ay
        )

Japan

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre (JP)" ,colors = myPalette) %>% 
  layout(title="Sales by Genre (JP)",
         xaxis = ax,
         yaxis = ay
        )

Hierbei erkennen wir wieder einmal das US und EU recht ähnlich sind wohingegen Japan ein gänzlich anderes Genreshema erkennen lässt. In Japan dominiert Role-Playing welches sich in EU und US nur auf platz 7 befindet.

Nun schauen wir uns die Genreentwicklung über die Jahre an. Hierzu verwenden wir LinePlots.

Genreentwicklung im laufe der Jahre nach anzahl

Genre Amount per Year

Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Anzahl"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~Anzahl, color=~Genre,colors = myPalette)

Filled Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Anzahl"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Amount by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Stacked Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Anzahl"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>% 
  layout(title="Amount by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Genreshift %

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Percent %"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Marketamount genreshift in % from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Hierbei zu erkennen ist Obwohl die Anzahl der Jährlichen Spielereleases über die Jahre hinweg stetig wächst bleiben die Meisten Genres ähnlich viel vertreten. Auffällig sind hierbei Strategy-Games die erst 1991 das erste mal auftretem Seitdem obwohl sie Leicht an Marketshare verlieren grob gleich bleiben. Außerdem sind Action Games die Spiele mit der wohl größten volatilität. Sind es 1982 noch fast 50% der Gamereleases fällt deren aufkommen 1084 schon auf nur noch knapp 10% ab und 1986 steigt der Wert wieder auf fast 30%. Dieser Trend setzt sich fort bis 1996 ab welchem Zeitpunkt sich Action Games von 3.6% über die Jahre bis 2016 bis 35% entwickeln.

Genreentwicklung im laufe der Jahre nach Verkaufszahlen

Schauen wir uns an wie sich die verkäufe entwickelt haben.

Sales Amount per Year

Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Global_Sales"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~gr_sum, color=~Genre ,colors = myPalette) %>% 
  layout(title="Sales by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Filled Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Global_Sales"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>% 
  layout(title="Sales by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Stacked Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Global_Sales"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Sales by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Genreshift %

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Percent %"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Marketshare genreshift in % from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Wie zu erwarten lässt sich hier ein Großer overlap zu den Anzahl der Gamereleases feststellen.

Genreentwicklung im laufe der Jahre nach Verkaufszahlen pro Spiel

Nun stellt sich die Frage hab sich die Verkäufe ähnlich der anzahl der GameReleases entwickelt?

Sales per Game per Year

Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~gr_sum, color=~Genre ,colors = myPalette) %>% 
  layout(title="Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Filled Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>% 
  layout(title="Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Stacked Lines

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>% 
  layout(title="Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Genreshift %

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Percent %"

)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre, colors = myPalette)%>% 
  layout(title="Marketshare in Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

Auch hier ist wie erwartet die Entwicklung Prozentual ähnlich sind. Auffällig ist jedoch das Shooter trotz ihrer geringen Vertretung in der Prozentualen Verteilung 1984 sowie 2014,2015 und 2016 die Nase Vorne haben. Platform Games haben 1985,1988 und 1990 die Nase Vorne. Die Hochzeit der Puzzle Games sind unangefochten 1988 mit dem Weltweitbekannten und auf Platz 6 der meistverkauften videospiele: Tetris. Ein genauerer vergleich der Ausschläge mit den dementsprechenden Videospielen wäre hier wünschenswert würde aber das Ausmaß dieser Arbeit sprengen.

Nun stellt sich die Frage wie es mit Genres pro publisher aussieht? Gibt es hier Publisher die verschiedene Genres bevorzugen bzw. deren Bestseller sich in bestimmten Genres Tummeln?

Hierzu verwenden wir ein stacked Bar-Plot. Dazu filtern wir die top 10 Publishern aka Publisher mit min 116 mio in Sales. Dies entfernt natürlich einiges an Information allerdings geht sonst einiges an Übersichtlichkeit verloren. Zusätzlich werden erneut die Worte “Entertainment”, “Interactive”, “Game”, “Games” und “Studios” entfernt.

Genreverteilung nach Publisher

Genre by Publisher

Sales

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) 

PublisherSales <- grouped %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)

grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)

grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")

  

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly(x=~Publisher,
           y=~Global_Sales,
            type='bar',
           color=~Genre, colors = myPalette)  %>% 
  layout(title="Sales by Genre By Publisher",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

Amount

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n(),sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )

PublisherSales <- grouped %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")



ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)

grouped%>%
  plot_ly(x=~Publisher,
           y=~Anzahl,
            type='bar',
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Amount by Genre By Publisher",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

Bei dem vergleich der Werte ist hier zu bemerken, dass die meisten Publisher Hierbei sich mit der Anzahl der Spiele und den Sales gut abdecken. Die auffälligsten diskrepanzen sind hierbei EA mit dem Sports Genre und ihren järlich releasten Spielen FiFa/NBA2k etc. sowie Nintendo mit der Platformreihe Super Mario. Schauen wir uns diese Beiden Firmen Noch einmal im Detail an.

Hierzu verwenden wir wieder die Bar/Pie chart Combo die uns Bereits aus vorderen Teilen der Ausarbeitung bekannt sind.

Genreverteilung für Publisher Electronic Arts

Genre für Electronic Arts

Balkendiagramme

Sales

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Electronic Arts")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Global_Sales,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Sales by Genre for Electronic Arts",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

Amount

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Electronic Arts")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)


grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Anzahl,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Amount by Genre for Electronic Arts ",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

Kreisdiagramme

Sales

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Electronic Arts")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Sales by Genre for Electronic Arts" ,colors = myPalette) %>% 
  layout(title="Sales by Genre for Electronic Arts",
         xaxis = ax,
         yaxis = ay
         )

Amount

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Electronic Arts")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Amount by Genre for Electronic Arts" ,colors = myPalette) %>% 
  layout(title="Amount by Genre for Electronic Arts",
         xaxis = ax,
         yaxis = ay
         )

Schauen wir uns EA hier im Detail an fällt allerdings auf das die Diskrepanz zwischen Sales und Anzahl der Gamereleases für EA bei Sports gar nicht so groß ist (41.5% vs 43.2%). Die größeren diskrepanzen sind hier Shooter welches nur 10% der Gamereleases sind aber gut 15% der Sales und Action mit 13.5% der Gamereleases und 10.4% der Sales.

Genreverteilung für Nintendo

Schauen wir uns nun Nintendo an.

Genre für Nintendo

Balkendiagramme

Sales

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Global_Sales,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Sales by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

Amount

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)
## Warning: Unknown or uninitialised column: `Global_Sales`.
ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)



grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Anzahl,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Amount by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

Kreisdiagramme

Sales

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Sales by Genre for Nintendo" ,colors = myPalette) %>% 
  layout(title="Sales by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay
         )

Amount

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Nintendo")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Amount by Genre for Nintendo" ,colors = myPalette) %>% 
  layout(title="Amount by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay
         )

Bei Nintendo zu erkennen ist hier, dass Platform spiele ein Kassenchlager sind. Nehmen diese nur 16% der spielereleases ein so bringen sie dennoch 24% der Sales ein. Gleiches Gilt für Sport games. 8% gegenüber 12%. Action (11% vs 7%), Misc (14% vs 10%) und Puzzle Games (10.5% vs 7%) sind jedoch nicht so erfolgreich.

Ausblick in die Zukunft

Ein Vergleich der Ausschläge mit den dementsprechenden Videospielen.

Eine genaue Analyse der Gamesales pro jahr (aka tetrist 1950 30 mal testris 2015 300000 mal) geben die daten nicht her.

eine anylse der Coronapandemie veränderungen (geben die daten nicht her)

Aufgetretene Probleme

Colorbrewer wird nicht in jeder Grafik akzeptiert

Sales pro Game analyse rechnet nicht spiele pro platform zusammen

 

Created by Florian Reichle

flre0005@hs-kl.de